量子位 05-14 07:05

Auto Research时代,47个没有标准答案的任务成了Agent能力必测榜

📌 一句话:AI Agent评估从"有标准答案的考试"转向"真实世界的开放题",47个无固定解的任务成为新标杆。

💡 3个要点

  • AI Agent不再只做"选择题",能否完成开放性任务成为核心指标

  • 这47个任务模拟真实科研场景,考验AI的综合推理与自主决策能力

  • 传统benchmark失效,Auto Research能力成为大模型竞争新高地

📖 背景

过去AI评估依赖标准化测试(如选择题、编程题),但这类任务已被各大模型"刷分"接近天花板。随着大模型进入Agent时代,如何评估其解决真实复杂问题的能力成为行业痛点。

💭 点评

当AI能流畅通过SAT、GRE,却在真实科研中帮不上忙时,标准化测试的局限性暴露无遗。这47个"无标准答案"的任务,本质上是在用人类真实工作场景倒逼AI能力进化——不是考你会不会,而是看你能不能把事做成。这是AI从"聪明"走向"有用"的关键一跃。 ---

📡 来源:量子位

码头码农 - 微信搜索关注